Telegram Group & Telegram Channel
📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6425
Create:
Last Update:

📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6425

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from sg


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA